24/11/2021

Le séquencage à haut débit et ses applications en oncologie

Applications principales

  • En Recherche: Recherche de mutations dans des panels larges ou des exomes complet) à visée de découverte.

  • En Clinique: Recherche de mutations dans des panels restreints pour le diagnostique.

  • Permet l’étude de mutations constitutionnelles et somatiques à faible pourcentages.

  • Un grand nombre de patients peuvent être analysés simultanément et rapidement.

  • L’analyse bioinformatique devient partie intégrante du processus de traitement.

Principe général du NGS

Echelles en fonction de l’application

Principe du séquencage Shotgun

Détection de variants structuraux par NGS

But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.

Etapes de l’analyse bioinformatique:

  • Contrôle Qualité sur les données brutes suivi éventuellement d’un Trimming
  • Alignement des reads sur le génome de référence
    • Alignement principal.
    • Ré-alignement local pour la recherche d’INDELS.
  • Appel de variants
  • Annotation et production d’un fichier VCF et d’un compte-rendu

Départ: les fichiers issus du séquenceur (Fichiers FASTQ)

Ils contiennent les reads: petite séquence d’un fragment d’ADN de longueurs plus ou moins fixe.

  • Single-end
    • Chaque read est indépendant
  • Paired-end
    • Le séquençage est fait par chaque extrémité de chaque brin. Dans ce cas, les reads sont organisés par paires
@HWI-ST865:166:D0C4KACXX:2:1101:1042:1954 1:Y:0:
CNANAAATNAANNNNGNNNNNNNNNANNNNNAAANNNTNNNNNNNNNTNNTGNNNNTTGTTTNNTTGTGGGTTTCTCTGTCCCCN
+
#####################################################################################
@HWI-ST865:166:D0C4KACXX:2:1101:1241:1970 1:N:0:
CCAGCGACACTTGCAGCTTAGGGGCAAGAGGCTCCCACAACACCCTGTGCGATCGGAAGAGCGGTTCAGCAGGGATGCCGCGGCC
+
GFFIGIIIFGEHHIJJJIIGGGHIIBD=BFG?EDECC@FGCHC?BCCBB)53(;;B;?8299?######################

Mesure et encodage qualité: le Phred

Quelques définitions:

  • Valeur de qualité exprimée en \(QPhred\)
  • \(QPhred\) = probabilité \(p\) d’erreur de mauvaise identification de la base
  • \(QPhred = -10.log_{10}(p)\)

Exemple:

  • Q20 correspond à une probabilité d’erreur de 1%
  • Q30 correspond à une probabilité d’erreur de 0,1%

Contrôle Qualité par FastQC

Alignement sur le génome de référence (BWA)

Détection des variants

Production des VCF (Variant Calling Files)

Visualisation sous IGV

Quelques définitions: les Reads

Couverture et profondeur

Analyse de panels: Exemple du panel INCa

Du prélèvement au compte-rendu scientifique

Alignement par BWA

Référence: Li et al: Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics. 2009 Jul 15; 25(14): 1754–1760.

BWA (Burrows-Wheeler Alignment tool)a été spécialement conçu pour l’alignement de millions de séquences peu divergentes d’un génome de référence.

Il est basé sur la Transformée Burrows-Wheeler associé à un algorithme de tri par arbre. Il permet l’alignement de reads relativement longs pour lesquels il existe des seuils (gap) en cas de présence d’INDELS.

Il utilise une quantité relativement faible de mémoire et est parallélisable, pour exploiter les architectures multi-coeurs.

GATK (Genome Analysis Tookit)

Référence: Van der Auwera GA & O’Connor BD. (2020). Genomics in the Cloud: Using Docker, GATK, and WDL in Terra (1st Edition). O’Reilly Media.

Tutoriel: Van der Auwera GA et al. (2013). From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline. Curr Protoc Bioinformatics, 43:11.10.1-11.10.33. DOI: 10.1002/0471250953.bi1110s43.

GATK est une suite d’outil qui permettent

  • Le marquage des réplicats PCR dans les reads (outil picard)
  • La recalibration des valeurs qualité des bases des reads
  • Le réalgnement pour l’appel d’INDELS
  • L’appel de variants (SNPs+INDELS)
  • La recalibration du score des variants et leur filtrage

Utilisation de GATK pour la détection de variants

Pipeline issu des bonnes pratiques définies par le Broad Institute.

SnpEff

Référence: Cingolani P et al:, A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3.”. Fly (Austin). 2012 Apr-Jun;6(2):80-92. PMID: 22728672

SnpEff est un outil destiné à l’annotation des variants et à la prédiction de leur effet.

Il prends en entrée un fichier décrivant les différences entre les échantillons et le génome de référence. SnpEff va donner:

  • Le gène ou l’exon dans lequel se situe le SNP/INDEL
  • Le changement dans les acides aminés
  • Une annotation plus ou moins complexe: changement d’expression dans le gène, lien à une maladie, etc…)

Rappel des étapes bioinformatiques

  • Contrôle Qualité (FASTQC)
  • Alignement sur le génome de référence (BWA)
  • Trimming des séquences adaptatrices (Triommomatic)
  • Ré-alignement (GATK)
  • Détection des mutations (GATK)
  • Annotation des variants (SnpEff)
  • Visualisation des données (Read, SNPs) (IGV - Integrative Genomics Viewer)

Rappels sur les extensions de fichiers

  • Fichiers de séquences brutes: .fastq (Compressé: .fastq.gz)
  • Fichiers de séquences alignées .BAM
  • Index de fichiers de séquences alignées .BAI
  • Génome complet au format FASTA: .fa
  • Fichiers listant les mutations/Indels: .VCF ou .txt

Conclusion

  • L’utilisation du NGS en oncologie permet d’augmenter le débit d’analyse.

  • L’analyse bioinformatique fait partie intégrante du processus global de détection des variants.

  • A terme: disparition du séquencage ciblé type Sanger. Celui-ci est actuellement encore utilisé pour la confirmation des résultats.

  • Perspectives: vers la plateforme France Médecine Génomique 2025.

  • Voir le projet des 100,000 génomes du NHS.

Licence